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Résumé. Le concept de Skyline a été introduit pour mettre en évidence les objets « les 
meilleurs » selon différents critères. Une généralisation multidimensionnelle du SKYLINE a 
été proposée à travers le Skycube qui réunit tous les SKYLINES possibles selon toutes les 
combinaisons de critères et permet d'analyser les liens entre objets SKYLINES. 
Comme le data cube, le SKYCUBE s'avère extrêmement volumineux si bien que des ap- 
proches de réduction sont incontournables. Dans cet article, nous définissons une approche 
de matérialisation partielle du SKYCUBE. L'idée sous-jacente est d'éliminer de la représenta- 
tion les Skycuboïdes facilement re-calculables. Pour atteindre cet objectif de réduction, nous 
caractérisons un cadre formel : le treillis des concepts ACCORDS. Cette structure combine 
la notion d'ensemble en accord et le treillis des concepts. A partir de cette structure, nous 
dérivons le treillis des concepts SKYLINES qui en est une instance contrainte. 
Le point fort de notre approche est d'être orientée attribut ce qui permet de borner le nombre 
de nœuds du treillis et d'obtenir une navigation efficace à travers les Skycuboïdes. 



1 Introduction 

Dans un contexte décisionnel, certaines requêtes ne renvoient aucun résultat. Dans ces requêtes, l'uti- 
lisateur recherche les tuples pour lesquels les valeurs de certains critères sont optimales. C'est le caractère 
« multicritère » de ces interrogations qui les rend généralement infructueuses. En effet, tel tuple peut être 
optimal pour un critère mais pas pour un autre, il est alors éliminé du résultat alors qu'il aurait pu être per- 
tinent pour l'utilisateur. Par exemple, si l'on considère une base de données immobilières, la recherche du 
logement « idéal » peut combiner des conditions sur le prix, le plus bas possible, la surface, la plus grande 
possible, et l'éloignement du lieu de travail, le plus réduit possible. Évidemment il est vraisemblable que 
ce logement idéal n'existe pas, d'où l'absence de réponse à ce type de requête. Pourtant certains logements 
pourraient s'avérer pertinents pour l'utilisateur parce que, situés dans une zone proche, mais non voisine, 
ils réunissent les critères de surface maximale et de prix minimal. 

Afin d'apporter une réponse adéquate au type de requêtes décrites, l'opérateur SKYLINE (Bôrzsônyi 
et al., 2001) a été introduit. Il considère l'ensemble des critères de choix d'une recherche comme autant 
de préférences et extrait les tuples globalement optimaux pour cet ensemble de préférences. Ainsi plutôt 
que de rechercher une hypothétique solution idéale, il extrait les candidats les plus proches possibles des 
souhaits de l'utilisateur. Son principe général s'appuie sur la notion de dominance. Un objet ou un tuple est 
dit dominé par un autre si, pour tous les critères intéressant le décideur, il est moins optimal que cet autre. 
Un tel tuple est éliminé du résultat, non pas parce qu'il est non pertinent pour un des critères mais parce 
qu'il est non optimal selon la combinaison de tous les critères. En d'autres termes, il existe au moins une 
meilleure solution pour l'utilisateur qui, elle, sera retenue. 

De la même manière que le cube de données permet de comprendre les liens existant entre plusieurs 
niveaux d'agrégation, une généralisation multidimensionnelle du SKYLINE a été proposée à travers le SKY- 
CUBE (Yuan et al., 2005; Pei et al., 2005). Cette structure réunit tous les SKYLINES possibles suivant les 
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TAB. 1 - La relation LOGEMENTS 



différentes combinaisons de critères. Il est alors possible de rechercher efficacement des objets dominants 
selon différentes combinaisons de critères. De plus, grâce à cette structure, il devient possible d'observer 
le comportement des objets dominants à travers l'espace multidimensionnel et ainsi d'analyser et de com- 
prendre les différents facteurs de dominance. Ce concept étant inspiré du cube de données, il souffre des 
mêmes inconvénients de coût de calcul et d'explosion de l'espace de stockage. Ainsi il est naturel, comme 
pour le data cube, d'essayer d'en proposer des représentations réduites et les algorithmes associés. 

Dans cet article, nous proposons une approche basée sur le treillis des concepts qui permet de maté- 
rialiser partiellement les SKYCUBES et donc de réduire la taille de leur représentation tout en garantissant 
la reconstruction complète des résultats. Cette structure combine le concept d'ensemble en accord (Beeri 
et al., 1984; Lopes et al., 2002), issu de la théorie des bases de données, et celui du treillis des concepts, 
fondement de l'analyse de concepts formels. Contrairement à Pei et al. (2006), notre approche de réduction 
est orientée attribut ce qui lui confère les mêmes qualités pour la navigation que le Skycube complet. 

Le plan de l'article est le suivant. Au paragraphe 2, nous rappelons le contexte de notre travail : le 
SKYCUBE. Nous formalisons un cadre formel dans lequel s'inscrira notre travail au paragraphe 3. Puis 
nous présentons notre approche de matérialisation partielle des SKYCUBES. 

2 Skycube pour l'Analyse multidimensionnelle des Skylines 

Dans cette section, nous présentons d'abord l'opérateur Skyline ainsi que la problématique à laquelle 
il répond. Dans un deuxième temps, nous présentons l'analyse multidimensionnelle des SKYLINES à tra- 
vers le concept de SKYCUBE. 

2.1 L'opérateur Skyline 

Avant de définir de manière formelle l'opérateur SKYLINE, il est important de bien situer le contexte 
dans lequel la problématique se pose. En effet, il ne s'applique pas à n'importe quelle relation. Pour qu'il 
puisse effectuer les comparaisons nécessaires, il faut que les différents domaines sur lesquels sont définis 
les attributs, critères de choix de l'utilisateur, soient totalement ordonnés (Bôrzsônyi et al., 2001; Pei et al., 
2006). Par simplicité, les attributs ont systématiquement des valeurs numériques dans nos exemples. 

Les tuples de nos relations pouvant être utilisées par l'opérateur SKYLINE sont de la forme t — 
(di,d,2, ■ ■ ■ ,dfc,ci,C2, . . . ,ci) où les di sont les dimensions non utilisées par l'opérateur SKYLINE alors 
que les Cj sont les critères sur lesquels l'utilisateur se fonde pour porter son choix. 

Exemple 2.1 - La relation illustrée par la table 1 est typique pour l'utilisation du SKYLINE. Elle répertorie 
différents logements. Les attributs dimensions classiques sont ici Propriétaire et Ville et les critères de 
choix pour trouver le « meilleur logement » sont : le Prix de vente en milliers d'euros, Y Éloignement par 
rapport au lieu de travail en kilomètres, la Consommation Énergétique en kilowattheures par an et par mètre 
carré, le nombre de Voisins. 

Définition 2.1 (Relation de dominance) - Soit C = {ci, C2, . . . , Cd] l'ensemble des critères sur lesquels 
porte l'opérateur SKYLINE 2 . Soit deux tuples t et t', la relation de dominance suivant l'ensemble de critères 



1. Le Rowld est un attribut implicite dont la valeur sert d'identifiant unique à chaque tuple. tj est le tuple ayant i pour Rowld. 

2. Sans perte de généralité, nous considérons uniquement le cas où tous les critères doivent être minimisés. 
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C est définie comme suit : 

thct' & t[a] < t'[a] et t[c 2 ] < t'[c 2 ] et ... et t[c d ] < t'[c d ] 

Lorsque t >zc t 1 et 3 Cj G C tel que t\cj\ < t'[ci], la dominance est stricte, elle est notée t >c t 1 '■ 

Lorsqu'un tuple t domine un tuple t' (Le. t }zc t'), cela signifie que t est équivalent ou « meilleur » 
que le tuple t' pour tous les critères choisis. Comme nous considérons que les critères sont minimisés, 
les valeurs de t pour tous les critères sont inférieures ou égales à celles de t'. Ainsi dans le cadre d'une 
recherche multicritère les tuples dominés par d'autres (au moins un) ne sont pas pertinents et sont éliminés 
du résultat par l'opérateur Skyline. 

Définition 2.2 (L'opérateur Skyline) - Soit r une relation, le Skyline de r suivant C est l'ensemble 
des tuples qui ne sont dominés par aucun autre, suivant l'ensemble de critères C : 

SKY c {r) = {ter\$t' er\t, t' > c t} 

Exemple 2.2 - Avec notre relation exemple (cf. Table 1) et les critères suivants C = {Éloignement, Prix} 3 , 
SKYq (Logement) = {t 5 } carie tuple i 5 domine tous les autres. Il est donc le meilleur logement possible 
pour l'utilisateur. 

2.2 Skycube 

L'opérateur SKYLINE est un outil fondamental pour l'analyse multicritère des bases de données. Nous 
pouvons calculer un SKYLINE suivant un ensemble de critères définis par l'utilisateur, mais lorsqu'il s'agit 
d'en calculer plusieurs sur les mêmes données, aucun d'eux ne sait exploiter à son avantage les liens qui 
peuvent exister entre les différents SKYLINES. C'est pour cela qu'une structure nommée SKYCUBE a été 
introduite (Yuan et al., 2005; Pei et al., 2005). On peut dire que le SKYCUBE est au SKYLINE ce que 
le cube de données est au Group-By : une généralisation multidimensionnelle. Ainsi, dès lors que l'on 
souhaite répondre rapidement à toutes les requêtes posées sur un SKYCUBE, il vaut mieux opter pour une 
pré-matérialisation de ce cube. 

Définition 2.3 (SKYCUBE) - Un Skycube est l'ensemble de tous les Skylines dans tous les sous- 
espaces non vides possibles de C : 

SKYCUBE(r,C) = {(C,SKY c (r)) \CÇC} 

SKYc(r) est appelé le cuboïde SKYLINE (ou Skycuboïde) du sous-espace C. Par convention le cuboïde 
selon l'ensemble de critère vide est vide (Le. SKY$(r) — 0). 

La structure du SKYCUBE peut être représentée par un treillis semblable à celui utilisé pour le cube de 
données (cf. figure 1). Les cuboïdes du SKYCUBE sont regroupés par niveau en fonction de leur nombre de 
critères. Ces niveaux sont numérotés en partant du bas du treillis (cuboïdes portant sur un seul critère) et 
en remontant vers le sommet (cuboïde suivant tous les critères possibles). 

Exemple 2.3 (SKYCUBE) - La figure 1 donne le Skycube associé à la relation Logement (cf. Table 1). 
Les critères seront symbolisés par leur initiale. 

Une requête S KYLINE multidimensionnelle retourne le sous-ensemble de tuples de la relation originelle 
formant le SKYLINE dans un sous-espace donné. Clairement, une fois le SKYCUBE calculé, il est possible 
de répondre à toute requête efficacement. 

2.2.1 Problèmes associés à l'analyse multidimensionnelle des Skylines 

En général, si un tuple t est dans les SKYLINES des sous-espaces Ci et Ci tels que C\ C Ci, pouvons- 
nous affirmer que t appartiendra aussi au SKYLINE de n'importe quel sous-espace C situé entre C\ et Ci 

3. À partir de maintenant, pour simplifier les notations et lorsque qu'il n'y a aucune ambiguïté, nous écrivons les ensembles sans 
accolades ni virgule. Par exemple {A,B} est noté AB. 
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FlG. 1 - Représentation sous forme de treillis du SKYCUBE de la relation LOGEMENT 



(Ci C C C C2)? Une telle propriété serait fort attrayante puisqu'elle pourrait considérablement simplifier 
la détermination des SKYLINES multidimensionnels. Malheureusement elle n'est pas vérifiée dans le cas 
général. 

Exemple 2.4 - Avec la relation Logement, comme le montre la figure 1, en considérant les Skylines 
selon (Prix, Eloignement, .Voisin) et (Eloignement, .Voisin) on a : (Prix, Eloignement,Voisin) D (Eloigne- 
ment,Voisin) et SKY PEV (Logement) ç S i^Y^y (Logement). 

En revanche, si l'on regarde les SKYLINES suivants (Prix, Eloignement, Consommation, Voisins) et 
(Prix, Eloignement, Consommation) on a (Prix, Eloignement, Consommation, Voisins) D (Prix, Eloigne- 
ment, Consommation) et SKY PE cv (LOGEMENT) D SKY PE c (LOGEMENT). 

L'observation mise en évidence par cet exemple est la suivante : l'appartenance à un Skyline n'est 
pas monotone, c'est-à-dire qu'un tuple t appartenant à un cuboïde SKYu{r) n'est pas automatiquement 
contenu dans les ancêtres de ce cuboïde. 

Comme dans le cas du cube de données, le SKYCUBE peut contenir des informations superflues. C'est 
cette problématique qui a motivé la proposition de représentations réduites du SKYCUBE faite par Pei 
et al. (2006). Notre contribution s'intéresse à la même problématique de réduction en combinant nous aussi 
l'analyse de concepts formels (Ganter et Wille, 1999) et le Skyline. Pour éviter le coût important de 
reconstruction des cuboïdes SKYLINES induit par le regroupement orienté valeur de Pei et al. (2006), notre 
méthode de réduction choisit une approche de regroupement orientée critère en se basant sur les ensembles 
en accord. 



3 Treillis des Concepts Accords d'une relation 

Dans ce paragraphe, notre objectif est de définir un cadre de travail formel combinant le concept d'en- 
semble en accord et celui de treillis des concepts. Nous proposons une nouvelle structure, le treillis des 
concepts ACCORDS d'une relation, sur laquelle s'appuie notre matérialisation partielle du SKYCUBE. 
Après un rappel des notions d'ensemble en accord et des classes d'équivalence associées, nous caracté- 
risons rigoureusement le treillis des concepts ACCORDS. 
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3.1 Ensembles en Accords 

Le concept d'ensemble en accord (ainsi que le système de fermeture associé), introduit par Beeri et al. 
(1984) pour caractériser la relation d' Armstrong, a été utilisé avec succès pour l'extraction de dépendances 
fonctionnelles exactes et approximatives (Lopes et al., 2002). Deux tuples sont en accord sur un ensemble 
d'attributs X s'ils partagent la même valeur pour X. 

Définition 3.1 (Ensembles en accord) - Soit tj, tj deux tuples de r et X Ç C un ensemble d'attributs 
(critères dans notre contexte), tj, tj sont en accord sur X si et seulement si ti[X] = tj[X]. L'ensemble des 
attributs en accord de t j et tj est défini comme suit : 

Acc(tj,tj) = {CeC | ti[C] = tj[C]} 

Cette définition peut être généralisée pour un ensemble de tuples T Ç r composé d'au moins deux élé- 
ments : 

Acc(T) = {C G C | t[C] = t'[C], Vt,t' G T} 

Définition 3.2 (Ensembles en accord d'une relation) - L'ensemble des attributs en accord d'une relation 
r est défini comme suit : 

AccORDS(r) = {ACC(U,tj) | U,tj Ereti ^ j} 

Cet ensemble peut être redéfini de manière équivalente : 

AccORDS(r) = {Acc(T) | VT Ç r et \T\ > 2} 

Exemple 3.1 - Avec la relation LOGEMENT, Acc(t2, £5) = PV car ces deux tuples partagent la même 
valeur sur les attributs Prix, Voisins et ont des valeurs différentes pour Éloignement, Consommation. De 
même, Acc({i3, £4, £5}) = E car ces trois tuples ont la même valeur uniquement pour le critère Éloigne- 
ment. L'ensemble des ensembles d'attributs en accord de la relation LOGEMENT est le suivant : 
Accords (Logement) = {0, E, P, V, C, PV, ECV}. 

Définition 3.3 (Classe d'équivalence d'un tuple) - Soit r une relation et C ç C un ensemble de critères. 
La classe d'un tuple t selon C, notée [t]c, est définie comme l'ensemble des identifiants i (Rowid) de tous 
les tuples tj G r en accord avec t selon C (Le. l'ensemble des identifiants des tuples tj partageant avec t 
les mêmes valeurs pour C). Nous avons donc : 

[t] c = {i£ Tid(r) | tj[C] = t[C}} 

Exemple 3.2 - Avec la relation Logement, [t 2 ]p = {2, 5} car seuls les tuples t 2 et t 5 partagent la même 
valeur sur le critère Prix. 



3.2 Concepts ACCORDS d'une relation 

Notre objectif est de définir un treillis des concepts particulier se basant sur les ensembles en accord 
et les partitions (Spyratos, 1987). Pour atteindre ce but, nous caractérisons une instance de la connexion 
de Galois entre d'une part le treillis des parties de l'ensemble des critères et d'autre part le treillis des 
partitions de l'ensemble des identifiants de tuples. Cette connexion nous permet de dériver des opérateurs 
de fermeture duaux, de définir un concept ACCORD et de caractériser le treillis des concepts ACCORDS. 

Définition 3.4 - Soit Rowid : r — > N une application qui associe à chaque tuple un unique entier naturel et 
Tid(r) — {Rowid(t) t G r}. Soit /, g deux applications entre les ensembles ordonnés (Tl(Tid(r)), Ç) 4 
et (y(C), Ç) qui sont définies comme suit : 

/: (U(Tid(r)),Q — > (T(C),G) 

TT .— >• p| Acc({t î | i G [t]}) 

g: (0>(C),Ç) — > <n(Tid(r)),Q 

C — > {{t] c \ter} 



4. La définition du treillis des partitions U.(E) d'un ensemble E est rappelée en annexe. 
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Pour un ensemble de critères C, l'ensemble des classes d'équivalence selon C forme une partition de 
Tid(r). C'est la fonction g qui associe à C cette partition des identifiants. Cette dernière est notée ttc 
et définie comme suit : ttc — g{C). L'ensemble de toutes les partitions ne possibles est noté Tly^ C y La 
fonction / fait l'association inverse de g. 

Exemple 3.3 - Avec la relation LOGEMENT, en prenant les ensembles de critères E, EC, ECV et PV, 

on a g(E) = {12,345} 5 , g(EC) = {1,2,35,4}, g(ECV) = {1,2,35,4} et g(PV) = {1,25,3,4}. Avec les 
partitions {1,2,35,4} et {1,2,345}, on a /({1,2,35,4}) = ECV et / ({1,2,345}) = E. 

Proposition 3.1 - Le couple d'applications gc = (/, g) est une connexion de Galois entre le treillis des 
parties des critères C et le treillis des partitions de Tid(r). 

Définition 3.5 (Opérateurs de fermeture) - Le couple gc = (/, g) étant un cas particulier de la connexion 
de Galois, les compositions / o g et g o f des deux applications sont des opérateurs de fermeture (Ganter 
et Wille, 1999) définis ci-dessous. 

h: 7(C) — ► 7(C) 

C f(g(C))= C 

C"eAcC0RDS(r) 
C7CC / 

h': U(Tid(r)) — ► U(Tid(r)) 

71" ' ► = , • 7r' 

Corollaire 3.1 - h et h' satisfont les propriétés suivantes : 

1. C Ç C" h(C) Ç h(C) et 7T Ç tt' ^ /i'(tt) Ç ^'(tt') (isotonie) 

2. C Ç /i(C) et 7r Ç ft'(7r) (extensivité) 

3. ft(C) = h(h(C)) et /i'(tt) = h'(h'(ir)) (idempotence) 

Exemple 3.4 - Avec la relation LOGEMENT, en prenant les ensembles de critères EC et ECV, d'après 
l'exemple précédent on a : 

- h(EC) = f(g(EC)) = /({1,2,35,4}) - ECV 

- h(ECV) = f(g(ECV)) = /({1,2,35,4}) - ECV 
Avec les partitions {1,2,35,4} et {1,2,345}, on a : 

- ^'({1,2,35,4}) = 5 (/({l,2,35,4})) = g(ECV) = {1,2,35,4} 

- ft'({l,2,345}) = g(f ({1,2,345})) = g(E) = {12,345} 

Définition 3.6 (Concepts ACCORDS) - Un concept Accord d'une relation r est un couple (C, tt) asso- 
ciant un ensemble de critères à une partition des identifiants : C G et 7r e Tl(Tid(r)). Les éléments 
de ce couple doivent être liés par les conditions suivantes : C = f(ir) , n = g(C) = ttc- 
Soit c a = (C Ca ,n Ca ) un concept ACCORD de r, nous appelons n Ca l'extension de c a (notée ext(c a )) et 
C Ca son intension (notée int(c a )). L'ensemble de tous les concepts ACCORDS d'une relation r est noté 
CONCEPTSACCORDS (r). 

Théorème 3.1 (Treillis des concepts ACCORDS) - Soit Concepts Accords (r) l'ensemble des concepts 
ACCORDS d'une relation r. L'ensemble ordonné (CONCEPTSAccORDS(r), < 6 ) forme un treillis complet 
nommé treillis des concepts ACCORDS. VF Ç CONCEPTSAccORDS(r), Vinfimum ou borne inférieure 
(/\) et supremum ou borne supérieure (V) sont donnés ci-après : 



/\P = (f] int{c a ),ti{ + ext{c a ))) 

C a GP 

\/P = (h({J int(c a )), • ext(c a )) 



c a £P 

c a eP 



5. Sont dans la même classe d'équivalence d'une part t\, t2 et d'autre part (3, (4, (5. 

6. Soit (Ci, m), (C2,vr2) e CONCEPTSAccORDS(r), (Ci, m) < (C2,vr2) » Ci Ç C2 (ou de manière équivalente 

7T2 Ç 7Tl). 
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(PECV, {1,2,3,4,5}) 
(PV, {1,25,3,4}) (ECV, {1,2,35,4}) 

(P, {13,25,4}) (F, {1,235,4}) (P, {12,345}) (C, {1,24,35}) 

(0, {12345}) 



FlG. 2 - Diagramme de Hasse du treillis des concepts ACCORDS de la relation LOGEMENT 



Démonstration. Puisque le couple gc = (/, g) est une connexion de Galois, le treillis des concepts AC- 
CORDS est un treillis des concepts d'après le théorème fondamental de Wille (Ganter et Wille, 1999). □ 

Exemple 3.5 - La figure 2 donne le diagramme de Hasse du treillis des concepts ACCORDS de la rela- 
tion Logement. Le couple (ECV, {1,2,35,4}) est un concept ACCORD car d'après les exemples pré- 
cédents on a g(ECV) = {1,2,35,4} et /({1,2,35,4}) = ECV. À l'inverse le couple (PC, {1,2,35,4}) 
ne constitue pas un concept ACCORD car /({1,2,35,4}) ^ PC. Soit c a = (ECV, {1,2,35,4}) et c b = 
(PV, {1,25,3,4}) deux concepts Accords, nous avons donc : 

c a A c b =(ECV n PV, ^'({1,2,35,4} +{1,25,3,4})) 

=(V, ^'({1,235,4})) = (V, {1,235,4}) 
c a V c b =(h(ECV U PV), {1,2,35,4} .{1,25,3,4}) 

=(h(PECV), {1,2,3,4,5}) = (PECV, {1,2,3,4,5}) 



Proposition 3.2 - Pour tout ensemble de critères C Ç C, la partition associée ire est identique à la partition 
de sa fermeture. 

VC Ç C, TTC = TT h (C) 

Démonstration. Par définition VC Ç C, ttc = g(C) et h(C) = f(g(C)). Nous avons donc Tih(c) = 
g(f(g(Cj). Or, le couple gc — (/, g) étant une connexion de Galois, onagofog = g (Ganter et Wille, 
1999). Ainsi, on a donc bien ir h(c) = g(f(g(C))) = g(C) = tt c . □ 

Exemple 3.6 - Avec la relation LOGEMENT, en prenant comme ensemble de critères PC, d'après les 
exemples 3.3 et 3.4, on a : ir EC = g(EC) = {1,2,35,4} et ir h(EC ) = g(h(EC)) = g(ECV) = 
{1,2,35,4}. 

La proposition précédente signifie que la fermeture d'un ensemble de critères C peut être vue comme 
le plus grand sur-ensemble de C ayant la même partition. 

4 Treillis des Concepts Skylines pour la matérialisation partielle 
du Skycube 

Le treillis des concepts Skylines est un treillis des concepts Accords contraints. Nous démon- 
trons une propriété fondamentale de notre treillis nous permettant de ne matérialiser que partiellement le 
SKYCUBE en éliminant certains cuboïdes. Nous montrons ensuite comment de tels cuboïdes peuvent être 
reconstruits facilement. 

4.1 Treillis des concepts Skylines 

Soit ne une partition de r sur C. Par définition, les tuples d'une même classe d'équivalence [t]c G i^c 
sont indistinguables sur C (ils partagent tous la même projection sur C). Si t est non dominé sur C, 
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(PECV, {2,4,5}) 
(PV, {25}) " (ECV, {2,35,4}) 

(P, {25}^ ^ {235}) ^^{345}) ^C, {24}) 

(0, {12345}) 



FlG. 3 - Diagramme de Hasse du treillis des concepts SKYLINES de la relation LOGEMENT 



il en sera de même pour tous les autres tuples de sa classe (et réciproquement). Il suffit donc de tester 
la dominance d'un seul tuple d'une classe pour savoir si l'ensemble des tuples de la classe appartient 
ou non au Skycuboïde selon C. Ainsi, pour optimiser le calcul d'un Skycuboïde selon C à partir de sa 
partition ire, on conserve uniquement un seul représentant de chaque classe d'équivalence. Cet ensemble 
est noté reps(irc)- On diminue alors la taille de l'entrée en éliminant les tuples qui auraient conduit à un 
grand nombre de comparaisons inutiles. Pour prendre en compte les particularités du calcul de l'opérateur 
SKYLINE sur une partition, nous introduisons l'opérateur suivant. 

Définition 4.1 - Soit C un ensemble de critères et tt une partition de r. On définit un nouvel opérateur 
LT-Sky de la manière suivante : 

n-SKY c (7r c ) = {[U] e tt c | Vtj e r on a tj )/- c k} 
= {[U] e ttc \Ue SKYc(r)} 

Définition 4.2 (Concepts Skylines)- Soitc a = (C,ir) e Concepts Accords (r) un concept Accord 
d'une relation r. Le concept SKYLINE associé c s est défini de la manière suivante : 

c s = (C,n-SKY c (7r)) 

Il y a exactement autant de concepts SKYLINES que de concepts ACCORDS. L'ensemble des concepts 
SKYLINES associés aux concepts ACCORDS de r est noté CONCEPTSSKYLlNES(r). 

Les concepts SKYLINES sont des concepts ACCORDS où les partitions ont été contraintes. Ainsi, 
ce type de concept n'est plus forcément ordonné par la relation Ç entre partitions. La relation d'ordre 
< entre concepts SKYLINES s'exprime donc de la manière suivante : Pour tout (Ci, LT-Sky^ (ni)), 
(C 2 ,n-SKYc 2 (7r 2 )) G CONCEPTSSKYLINES(r), alors (Ci,II-SKY Cl (7ri)) < (C 2 ,n-SKYc 2 (7r 2 )) 4^ 

Ci ç C 2 . 

Définition 4.3 (Treillis des concepts Skylines) - L'ensemble ordonné (ConceptsSkylines(Y), <) 
forme un treillis complet nommé treillis des concepts SKYLINES. Il est isomorphe au treillis des concepts 
Accords. 

Exemple 4.1 - La figure 3 donne le diagramme de Hasse du treillis des concepts SKYLINES de la rela- 
tion LOGEMENT. D'après l'exemple 3.5, le couple c a — (ECV, {1,2,35,4}) est un concept ACCORD. Le 
concept SKYLINE c s associé est c s = (ECV, II-SKY B cy({l,2,35,4})) = (ECV, {2,35,4}). L'identifiant 
1 est éliminé de l'extension par l'opérateur IT-Sky car le tuple t\ est dominé par £ 2 . 



4.2 Matérialisation partielle du Skycube 

Ce paragraphe propose le treillis des concepts S KYLINES comme une matérialisation partielle des S KY- 
CUBES. L'idée sous-jacente, afin d'obtenir une représentation réduite, est d'éliminer les cuboïdes les plus 
efficacement reconstructibles. 

Définition 4.4 (Condition de non accord) - Soit r une relation et C un ensemble de critères. La condition 
CNAc(r) est vérifiée quand : 

$U, tj e r tels que U[C] = tj [C] avec i ^ j, C Ç C 
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Lorsque CNAc(r) est vérifiée, CNAx(r) l'est aussi avec X un sur-ensemble de C. 

Cette condition de non accord est une version « affaiblie » de la condition de valeurs distinctes (Yuan 
et al., 2005) puisqu'elle s'applique sur les projections et non pas sur les valeurs individuelles de chacun des 
critères. 

Définition 4.5 (Dominance sous Cna) - Soit C C C un ensemble de critères et r une relation. La relation 
de dominance t >~c t sous l'hypothèse CNAc(r) s'exprime plus simplement : 

Soit C tel que CNAc(r), Vïj, tj G r on a tj >-c U ssi Vc G C, tj[c] < U[c] avec i ^ j 

Lemme 4.1 - Soit r une relation. Pour tout ensemble de critères C Ç C vérifiant l'hypothèse de non accord 

CNA c (r), on a SKY c (r) Ç Sky C uc M avec c G C \ C. 

Démonstration. Sous l'hypothèse CNAc(r), on a : ti G SKYc(r) => Mtj G r avec i ^ j, on a tj )fc U => 
Vtj G r avec i 7^ j, 3c G C tel que tj[c] > ti[c) (cf. définition 4.5) => Vij G r avec i ^ j, 3c G C U co tel 
que tj[c] > ti[c] Vtj G r avec i ^ j, on a tj ^cuc h=^ti G SKYcucoO")- Sous l'hypothèse CNAc(r), 
on a donc S KY C (r) Ç S KY C uc ( r ) ■ □ 

Le contre exemple suivant montre que la propriété réciproque n'est pas vérifiée. 

Exemple 4.2 - Soit r = {ti, i 2 } une relation (avec ii = (0, 1) et t 2 = (1, 0)) et C = {A, B} l'ensemble 
de ses critères. La condition CNAa{t) est bien vérifiée. On a i 2 ^ SKY^(r) car t\ >a h alors que ti 
appartient bien à SkYaub(t). 

Corollaire 4.1 - Soit C tel que CNA c (r) est vérifiée. Par définition, pour tout X (C Ç X) vérifiant la 
condition CNAx(r), on a SKY c (r) Ç SKY x (r). 

Cette propriété est satisfaite pour tout sur-ensemble de C jusqu'à l'ensemble de tous les critères C. 

Théorème 4.1 (Théorème fondamental) - Soit r une relation, C un ensemble de critères et h(C) sa 
fermeture. Alors : 

VC Ç C on a SKY c (r) Ç SKY^c^r) 

Démonstration. Par définition, ti G SKYc(r) ssi 3[t] G Il-SKYc(7rc) telle que i G [t]. On cherche donc 
à montrer que IT-SKYc(7rc) Ç II-Sky c(^h(C))- O n sa it f 116 pour tout X tel que CÇIC h(C) on a 
= 7î"c- Soit E = {ti G r | i G reps^c)} l'ensemble des tuples représentants de cette partition. On 
ne peut se baser sur E pour le calcul des SKYLINES sur X que dans l'intervalle C Ç X Ç /i(C), autre- 
ment les classes d'équivalences n'étant plus égales il est impossible de garantir une reconstruction correcte 
du SKYLINE total à partir des représentants des classes d'équivalences. Aussi, la condition CNAx(E) 
est vérifiée car chaque tuple représentant est distinguable d'un autre donc d'après le lemme 4.1 on a 
SKYc(E) G Sky hc) (E) d'où SKY c (r) Ç SKY h(c) (r). □ 

Exemple 4.3 - Dans la relation Logement, on a S ky ec (Logement) = {t 4 }. Déplus, h(EC) = ECV 
et Skyecv (Logement) = {t 2 ,t 3 ,t 5 ,t4,}. S ky E c (Logement) ç SKY fc(BC) (Logement) est donc 
bien vérifiée. Aussi, on a S KY^ (Logement) = {£3, ti, t$} avec h(E) = E. On note donc la non inclusion 
Sky b (Logement) Sky B c(Logement). 

Le théorème précédent montre une inclusion entre certains cuboïdes. Plus exactement, pour tout en- 
semble de critères, il y a une chaîne d'inclusions allant de ses générateurs minimaux jusqu'à sa fermeture. 
Cela implique que l'on peut calculer un cuboïde à partir d'un autre qui le contient. Ainsi au lieu d'utiliser 
la relation complète, on ne considère qu'un sous-ensemble restreint de celle-ci. Les concepts SKYLINES 
représentent les plus grands cuboïdes (selon l'inclusion) permettant d'en calculer d'autres. Ainsi en ne 
conservant que les concepts SKYLINES (i.e. non matérialisation des cuboïdes non fermés), on peut recons- 
truire rapidement les cuboïdes manquants simplement en trouvant le fermé à partir duquel ils peuvent être 
recalculés. 

De plus grâce à la notion de classe d'équivalence des concepts SKYLINES, on évite un grand nombre 
de comparaisons inutiles. Les éléments indistinguables n'étant considérés que par groupes, la complexité 
du calcul ne dépend plus du nombre de tuples mais du nombre de groupes (classes d'équivalence). 
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Le treillis des concepts SKYLINES constitue donc une matérialisation partielle du SKYCUBE, où l'in- 
formation non matérialisée est efficacement recalculable. 



5 Comparaison avec les travaux antérieurs 

L'opérateur Skyline (Bôrzsônyi et al., 2001) s'intéresse à trouver les éléments les plus intéressants 
dans un contexte base de données. Il tire ses origines du maximal vector problem (Barndorff-Nielsen et 
Sobel, 1966; Bentley et al., 1978). Cependant les particularités du contexte font que des algorithmes spéci- 
fiques ont été développés. Les plus connus d'entre eux sont Bnl (Bôrzsônyi et al., 2001), Sfs (Chomicki 
et al., 2003), LESS (Godfrey et al., 2007). D'autres algorithmes plus efficaces tels que BBS (Papadias et al., 
2005) ont été proposés mais se basent sur des structures d'index coûteuses à maintenir. 

Le SKYLINE étant un outil d'aide à la décision, l'utilisateur va généralement calculer plusieurs SKY- 
LINES avant de trouver celui qui l'intéresse vraiment. Pour répondre à cette problématique, le concept de 
SKYCUBE (Yuan et al., 2005; Pei et al., 2005) a été proposé. L'idée générale étant de pré-calculer tous les 
SKYLINES, il est impératif de restreindre autant que possible le coût de stockage du résultat. 

Une première approche de réduction a été proposée par Pei et al. (2006). Son objectif est de résoudre le 
problème de l'appartenance d'un objet donné à différents Skycuboïdes. Sa solution consiste à proposer une 
représentation du SKYCUBE fondée sur l'analyse formelle des concepts où chaque nœud correspond à un 
couple composé d'une classe d'équivalence (ensemble d'objets) et des sous-espaces dans lesquels elle est 
SKYLINE. Le principal défaut de cette approche orientée valeur est que le nombre de nœuds est borné par 
la cardinalité du treillis des parties des tuples (|î'(Tid(r))|). Les objets SKYLINES sont considérés avant 
tout, ce qui fait que pour reconstruire un Skycuboïde il faut parcourir un grand nombre de nœuds du treillis. 
Dans les approches orientées attribut comme la nôtre, le nombre de nœuds est bien plus restreint car il est 
borné par \7(C)\. 

Une autre approche intéressante est celle de Xia et Zhang (2006). Elle est orientée cuboïde (orientée 
attribut). L'objectif ici est de proposer une réduction très importante du SKYCUBE en éliminant les élé- 
ments considérés comme redondants des différents cuboïdes. Son inconvénient est que la reconstruction 
d'un Skycuboïde est délicate et relativement coûteuse car il faut parcourir une structure de données pour 
retrouver les éléments redondants. De plus, contrairement à l'approche de Pei et al. (2006, 2007) et à la 
nôtre, celle-ci n'est pas fondée sur un support théorique aussi solide que l'analyse des concepts formels. 
Cependant, l'un des principaux intérêts de cette approche en plus de la réduction importante du coût de 
stockage est l'efficacité de la mise à jour des données. 

Notre approche ayant pour objectif de reconstruire les Skycuboïdes à moindre coût, elle se comporte 
idéalement dans ce cas-là. Malgré cette orientation ciblée, elle représente un bon compromis que ce soit 
pour la mise à jour ou pour la réduction de l'espace de stockage. 



6 Conclusion 

Dans ce papier, nous avons proposé le treillis des concepts SKYLINES qui est une instance contrainte 
d'un cadre formel plus général : le treillis des concepts ACCORDS. Cette nouvelle structure permet non 
seulement la matérialisation partielle sans perte d'information mais aussi la reconstruction efficace des 
cuboïdes manquants. Nous pouvons facilement étendre notre matérialisation au cas des e-SKYLlNES ou 
SKYLINES approximatifs (Papadias et al., 2005), en généralisant la définition d'ensemble en accord en 
remplaçant l'égalité stricte par une égalité à e près. Une telle extension permet à l'utilisateur de relâcher la 
contrainte de dominance lorsque le nombre de résultats n'est pas suffisant. 

Nous travaillons actuellement sur les aspects algorithmiques aussi bien pour le calcul du treillis des 
concepts SKYLINES que pour la reconstruction des résultats. Ce travail a pour objectif de valider la contri- 
bution théorique décrite dans cet article. 
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A Treillis des partitions 

Définition A.l (Partition d'un ensemble) - Soit E un ensemble, une partition n(E) 7 d'un ensemble E 
est une famille de parties de cet ensemble telle que chaque élément de E appartient exactement à une 
seule de ces familles (ou classes). Autrement dit, ir(E) est une famille d'ensembles deux à deux disjoints 
(iX, Y e n(E) on a X n Y = 0) dont l'union est égale à E ({JxeME) = E )- 

Définition A.2 (Relation d'ordre entre partitions) - Soit n(E), tt'(E) deux partitions d'un même en- 
semble E, ir(E) est dite plus fine que ir'(E) si et seulement si toute classe de tt(E) est obtenue par sub- 
division de classes de tt'(E) 8 . La relation de finesse entre deux partitions est une relation d'ordre partiel 
notée Ç. Elle est définie comme suit : 

tt(E) Ç ir'(E) ir(E) est plus fine que ir'(E) 9 <S> (VX G n(E), 3X' 6 ir'(E), X Ç X') 

7. S'il n'y a pas d'ambiguité sur l'ensemble E nous notons la partition n 

8. De façon équivalente, tt(E) est plus fine que tt'(E) si et seulement si toute classe de n'(E) est l'union de classes de n(E). 

9. Réciproquement ir'(E) est dite plus grossière que tt(E). 
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FlG. 4 - Diagramme de Hasse du treillis des partitions de l'ensemble E = {1,2,3, 4} 



Définition A.3 (Produit de partitions) - Soit n(E) et tt'(E) deux partitions d'un même ensemble E. Le 
produit des partitions tt(E) et tt'(E), noté ir(E) • n'(E), est obtenu comme suit : 

ir(E) • ir'(E) = {Z = X DY \ Z ^ 9, X e n(E) et F G ir'(E)} 

Avant de définir l'opérateur somme entre deux partitions, nous définissons une fonction outil R : 

R(e,F) = |J X 
eex 

avec e un élément d'un ensemble E, F une famille de parties de E. R(e,F) correspond à l'union des 
ensemble de F contenant l'élément e. 

Définition A.4 (Somme de partitions) - Soit tt{E) et tt'(E) deux partitions d'un même ensemble E. 
La somme des partitions n(E) et ir'(E), notée n(E) + n'(E), est obtenue par fermeture transitive de 
l'opération qui fait correspondre à un élément de E l'ensemble des éléments de ses classes dans ir(E) et 
n'(E) (Birkhoff, 1970). La suite S est définie ci-dessous pour formaliser ce calcul : 

S = max(7r(£;) Un'(E)) 
S n = max({iî(e,5„_i) | e G E}) 

Ainsi l'opérateur somme peut se définir de la manière suivante : 

n(E) + tï'(E) — Sk avec k tel que 5 fc = Sk-i 

Théorème A.l (Treillis des partitions) - Soit U(E) l'ensemble des partitions possibles d'un ensemble E. 
L'ensemble ordonné (H(E), Ç) forme un treillis complet nommé treillis des partitions de E. VF Ç H(E), 
son infimum ou borne inférieure (/\) et son supremum ou borne supérieure (\J) sont donnés ci-après : 

/\P= . 7T, \/ P = + * 

' X TteP V 7TGP 

Exemple A.l - Le diagramme de Hasse du treillis des partitions de l'ensemble E = {1, 2, 3, 4} est donné 
dans la figure 4. Par soucis d'uniformité avec le treillis des concepts ACCORDS, le treillis est représenté 
inversé par rapport à sa disposition naturelle. Les partitions les plus grossières sont en bas et les plus fines 
en haut. 



Summary 

The SKYLINE concept has been introduced in order to exhibit the best objects according to ail the 
criterion combinations and makes it possible to analyse the relationships between SKYLINE objets. 
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Like the data cube, the Skycube is so voluminous that réduction approaches are really necessary. In 
this paper, we define an approach which partially materializes the SKYCUBE. The underlying idea is to 
discard from the représentation the skycuboids which can be computed again easily. To meet this réduction 
objective, we characterize a formai framework: the AGREE concept lattice. From this structure, we dérive 
the SKYLINE concept lattice which is one of its constrained instances. 

The strong points of our approach are: (i) it is attribute oriented; (ii) it provides a boundary for the 
number of lattice nodes; (iii) it facilitâtes the navigation within the Skycuboids. 



